#modelos de lenguaje abiertos

Errorquake: Distribuciones de severidad de errores en LLMs abiertos

El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA.